Программирование массово параллельных процессоров: Практический подход: За пределами линейных массивов: Масштабирование до многомерных данных

Добро пожаловать в Великий переход. В программировании на ЦП мы определяем как итерировать; в ГПГПУ мы определяем что выглядит итерация. Этот сдвиг от ориентированной на инструкции к ориентированной на данные логике обусловлен абстракцией ядра.

1. Чертеж global

Используя __global__ квалификатор, вы не пишете функцию — вы проектируете масштабируемый чертеж. Одно выполнение ядра представляет собой одну автономную единицу работы, позволяя видеокарте координировать тысячи одинаковых задач по своей огромной конфигурации ядер без ручного управления потоками.

2. Решатель глобального адреса

Как один поток среди миллионов находит свою цель? Он использует детерминированный контракт, известный как формула индексации:

$$\text{threadID} = \text{blockIdx.x} \times \text{blockDim.x} + \text{threadIdx.x}$$

Эта формула действует как система координат, соединяющая логические данные программного обеспечения (массив) с физической иерархией аппаратного обеспечения (блоки и потоки).

3. Конфигурация выполнения

Параметры <<<B, T>>> определяют форму сетки. Это гарантирует прозрачную масштабируемость: ваш код выполняет одинаковую логику независимо от того, имеет ли оборудование 2 или 80 блоков стриминга (SM).

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

QUESTION 1

What is the primary role of the __global__ qualifier?

To define a function that runs on the CPU and is called by the GPU.

To mark a function as a kernel that is callable from the host and executes on the device.

To synchronize all threads across the entire GPU grid.

To allocate memory in the global memory space.

QUESTION 2

If blockIdx.x = 2, blockDim.x = 256, and threadIdx.x = 10, what is the global index?

266

512

522

778

QUESTION 3

What does 'Transparent Scalability' imply in CUDA?

The memory automatically scales with the size of the input array.

The same code can run on different GPUs with varying SM counts without modification.

Threads can see into the registers of other threads.

The kernel speed increases linearly with the clock speed of the CPU.

QUESTION 4

Why is the if (i < n) check necessary in a kernel?

To prevent the GPU from overheating.

To ensure threads do not access memory outside the valid array bounds.

To check if the kernel is running on the correct SM.

To synchronize memory access between threads.

QUESTION 5

Which variable represents the number of threads within a single block?

gridDim.x

blockIdx.x

blockDim.x

threadIdx.x

1. Чертеж __global__

2. Решатель глобального адреса

3. Конфигурация выполнения

1. Чертеж global